🎮 Reinforcement Learning - codenm.no2 · Scour

FlowRL: A Taxonomy and Modular Framework for Reinforcement Learning with Diffusion Policies 🤖Game AI

arxiv.org·2d·

Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models ♟️Game Theory

dani2442.github.io·5d·Hacker News·

The Moral Ceiling of Reinforcement Learning 🛡️AI Safety

pub.towardsai.net

·4d·

Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization 🤖Game AI

arxiv.org·16h·

Match or Replay: Self Imitating Proximal Policy Optimization 🤖Game AI

arxiv.org·2d·

Learning to Hint for Reinforcement Learning 🤖Game AI

arxiv.org·16h·

Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning 🤖Game AI

arxiv.org·2d·

Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes 🤖Agentic AI

arxiv.org·2d·

A Lyapunov Analysis of Softmax Policy Gradient for Stochastic Bandits ♟️Game Theory

arxiv.org·3d·

A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic 🤖LLM Inference

arxiv.org·1d·

Dynamic Dual-Granularity Skill Bank for Agentic RL 🤖Agentic AI

arxiv.org·2d·

CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with Trajectory Optimization 🤖Agentic AI

arxiv.org·3d·

Rainbow-DemoRL: Combining Improvements in Demonstration-Augmented Reinforcement Learning 🤖Game AI

arxiv.org·2d·

Experiential Reflective Learning for Self-Improving LLM Agents 🤖Game AI

arxiv.org·6d·

Functional Natural Policy Gradients 🤖Game AI

arxiv.org·2d·

Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion 🤖Agentic AI

arxiv.org·2d·

Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR 👁️Multimodal AI

arxiv.org·3d·

Receding-Horizon Policy Gradient for Polytopic Controller Synthesis 🤝Human-AI Collaboration

arxiv.org·1d·

Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models 🤖Large Language Models

arxiv.org·2d·

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills 🤖Large Language Models

arxiv.org·6d·

Loading more...